FILTER MODE ACTIVE

#оценка моделей

Найдено записей: 5

#оценка моделей01.07.2025

TabArena: революция в бенчмаркинге табличного машинного обучения с масштабируемой воспроизводимостью и ансамблированием

TabArena — динамичная и постоянно обновляемая платформа для бенчмаркинга табличного машинного обучения с упором на воспроизводимость, ансамблирование и глубокую настройку моделей.

#оценка моделей11.06.2025

Прорыв Meta: новая методика измеряет, сколько языковые модели запоминают на уровне бит

Meta и партнёры разработали новую методику для точного измерения запоминания языковых моделей, показав, что GPT хранит около 3,6 бит на параметр, и предоставили важные инсайты о различии между запоминанием и обобщением.

#оценка моделей23.05.2025

MMLONGBENCH: Новый стандарт оценки долгоконтекстных моделей с визуально-языковым пониманием

Исследователи представили MMLONGBENCH — первый комплексный бенчмарк для оценки долгоконтекстных визуально-языковых моделей, выявляющий ключевые особенности и проблемы в их работе.